iT邦幫忙

2025 iThome 鐵人賽

DAY 12
0
生成式 AI

30 天效率革命:用 n8n + AI 打造專屬助手系列 第 13

Day 13 : arXiv × Gemini × Summarization Chain

  • 分享至 

  • xImage
  •  

在前幾天我們已經學會了如何透過 n8n 抓取 arXiv 的多篇論文,並把內容交給 Gemini 做摘要。
但當論文變多、內容變長時,就會遇到 LLM 輸入長度限制 的問題,這時候 Summarization Chain 就派上用場了。

https://ithelp.ithome.com.tw/upload/images/20250927/20148979ggn2cyezRG.png


為什麼要用 Summarization Chain?

  • 突破長度限制:長篇論文、會議逐字稿、新聞合集,往往超過單次 LLM 輸入上限。
  • 分段處理更有效率:先針對每段內容做摘要(Map),最後再整合成完整總結(Reduce)。
  • 結構化輸出:可以透過 Prompt 控制輸出格式,得到更有組織的結果(條列、分類、建議)。
  • 彈性擴充:除了論文,你也能套用到 Podcast 逐字稿、YouTube 字幕、公司內部會議紀錄。

Summarization Chain 在 n8n 的基本用法

  1. 準備資料

    • 來源可以是 Node Input JSON(前一節點輸出的文字欄位)、Binary File、或 Document Loader(批次文件)。
    • 常見應用:arXiv 論文內文、新聞文章、PDF OCR 結果。
  2. 分段設定 (Chunking Strategy)

    • Characters Per Chunk:建議 2000–3000。
    • Chunk Overlap:200 左右,避免段落割裂。
  3. 選擇方法 (Summarization Method)

    • Map Reduce:先逐段摘要,再彙整 → 適合多篇/長文。
    • Refine:逐段摘要並不斷更新 → 適合需要高精準度的逐步整合。
    • Stuff:一次塞進去 → 僅適合短文。
  4. 設定 Prompt(必須包含 {text}):

    • Individual Summary Prompt:針對單段
    • Final Prompt to Combine:整合所有摘要
你是一位技術編輯,請將以下內容濃縮為重點摘要(3–5 點),保留專有名詞與數據:
{text}

簡單示範:多篇 arXiv 論文摘要

把arxiv API 取得的論文摘要整理好,丟到Summarization Chain

# Loop over input items and extract title, summary as dict
for item in _input.all():
  data = {}
  data[0] =''
  for e in item.json["feed"]["entry"]:
    data[0] =data[0]+ "title" + e["title"]+":"+e["summary"].strip()+"\n"

  item.json = data

return _input.all()

https://ithelp.ithome.com.tw/upload/images/20250927/201489799goMYfejDp.png

輸出結果範例:
https://ithelp.ithome.com.tw/upload/images/20250927/20148979XwPDTPQhK0.png

這邊會在短時間內大量調用API,因為是使用免費方案,在測試時常常會遇到API上限的問題,使用付費方案的話要注意一下使用量


上一篇
Day 12 : 用 n8n 串接 Discord 與 Gemini:自動化上傳論文筆記到 Notion
系列文
30 天效率革命:用 n8n + AI 打造專屬助手13
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言